#ml ops

3 篇文章

Phase 2：eval 集绝不能见过预标注

多数 HITL 项目搞砸的那一个决定。如果 eval 标签的种子是模型自己的预测，那你以后报的所有 F1 数字都对模型有偏。这件事第一天做很便宜，第四十天做很疼。

每批校验完的 episode 从 Label Studio 导出后，最直觉的动作就是立刻微调。为啥别这么干，以及一个真的「这次重训值得」时才触发的便宜节奏闸。

微调出模型 v3 时你得能回答「哪些导出的校验进了这个模型」。把整个训练集快照下来是显眼的答案、也是错的答案。版本化输入和推导过程；训练集是它们的函数。